电话级发音评分是一个具有挑战性的任务,具有远离人类注释器的性能。标准系统在使用培训的模型中为每个手机生成一个分数,用于仅具有本机数据的自动语音识别(ASR)。使用专门用于使用非本机数据的任务的系统时,已经显示了更好的性能。然而,这种系统面临着标记为此任务的数据集的挑战是稀缺和通常很小的。在本文中,我们提出了一种基于转移学习的方法,它利用了用于ASR的模型,适应发音评分的任务。我们分析了几种设计选择的效果,并将性能与最先进的发音(GOP)系统进行比较。我们的最终系统比EPADB上的GOP系统,一个用于发音评分研究的数据库,优先考虑不必要的校正的低速率的成本函数更好。
translated by 谷歌翻译